2秒钟转写5分钟音频!国产新语音模型拿下多项SOTA,定价骤减90%
2秒钟转写5分钟音频!国产新语音模型拿下多项SOTA,定价骤减90%阶跃星辰今日发布新一代自动语音识别模型StepAudio 2.5 ASR。该模型面向语音转写与长音频处理场景,在架构上引入Multi-Token Prediction(多Token预测)以提升推理效率,并通过扩展上下文窗口强化长内容识别能力。
来自主题: AI资讯
9179 点击 2026-04-25 10:22
阶跃星辰今日发布新一代自动语音识别模型StepAudio 2.5 ASR。该模型面向语音转写与长音频处理场景,在架构上引入Multi-Token Prediction(多Token预测)以提升推理效率,并通过扩展上下文窗口强化长内容识别能力。
彭超曾在华为印度、阿里任消费硬件业务1号位;联合创始人齐炜祯为Multi-token架构开创学者,被Deepseek、Qwen引入预训练方法。
告别Next-token,现在模型微调阶段就能直接多token预测!
Attention 还在卷自己。